PII Detection - 12 Model Benchmark Report
300 Test Cases (Base 200 + Advanced 100) · V1 Full Prompt · FP8 Quantization · NVIDIA L40S 46GB
Score Comparison
Base (200): 명확한 레이블과 정형화된 문서에서의 기본 PII 검출 ·
Advanced (100): 난독화, OCR 오류, 혼합 문서, 엣지케이스 등 노이즈가 반영된 어려운 상황 ·
Combined (300): Base + Advanced 전체
Detailed Statistics
| Model | Cases | Perfect | Accuracy |
Precision | Recall | F1 |
TP | FP | FN |
Latency |
Confusion Matrix (Document-Category Level)
TP (True Positive) — 실제 PII를 모델이 정확히 탐지한 건수. 높을수록 탐지 능력이 우수합니다.
TN (True Negative) — PII가 없는 항목을 올바르게 무시한 건수. 높을수록 불필요한 알림이 적습니다.
FP (False Positive) — PII가 없는데 잘못 탐지한 건수(오탐). 높으면 사용자에게 불필요한 경고를 유발합니다.
FN (False Negative) — 실제 PII를 놓친 건수(미탐). 높으면 개인정보 유출 위험이 증가합니다.
Sensitivity = TP/(TP+FN): 실제 존재하는 PII 중 모델이 얼마나 빠짐없이 찾아내는지 (재현율) |
Specificity = TN/(TN+FP): PII가 없는 항목을 얼마나 정확하게 무시하는지 (특이도)
Model
Per-Category Confusion Matrix
Model
| Category |
TP | TN |
FP | FN |
Sensitivity | Specificity |
Case Browser
Model
Dataset
Result
PII
Case Study: Qwen3-30B-A3B Error Analysis
Qwen3-30B-A3B (MoE 30B, 3B active) — 불완전 케이스 심층 분석
실패 패턴 분류